关于建设“中国古典知识库”的思考
作者:刘石 孙茂松
人文计算或数字人文的前提是典籍的数字化。我国大陆自1990年代至今,已构建了较为丰富的古籍电子数字资源。典籍数字化的进程可以催生新的思维方式和研究范式:从问题驱动到数据驱动、因果性分析到相关性分析、还原性思维到整体性思维,简而言之,我们可以称为大数据研究。大数据研究为人文社科研究的变革与创新带来了千载难逢的历史机遇,正如美国康奈尔大学通讯与信息科学专业教授JeffreyT.Hancock所说:“这是社科研究的一个全新时代,就好比显微镜的诞生对化学科学发展所起到的促进作用。”
相对于20多万种现存中国古籍来说,已得到数字化的还只是很小一部分,这项工作在今后相当长时段内仍当是亟待加强的工作。但现在要说的是,技术的发展倒逼我们提出更高和更激荡人心的目标。随着计算机深度学习能力、文本挖掘等大数据相关技术和人工智能学科的快速提升与发展,学界在呼吁继续推进古籍数字化的同时,开始呼吁古籍由数字化向数据化的转变。
随着书籍的大规模电子化、数据化,学术研究的数字基础设施建设已提上一些国家学术规划的议事日程。美国学术团体理事会(ACLS)甚至专门成立了“数字基础设施委员会”。有关构建“中国古典知识库”的设想,也经由全国人大代表作为建议提交第十三届全国人大第三次会议(2020年5月)。
近期看到一篇文章,发表在《中国新闻周刊》上,题目叫《数学考15分的钱钟书出了道计算机题,这些人研究了35年》,披露了钱钟书先生对古籍数字化的先知先觉。文中提到5万多首的《全唐诗》检索系统的验收会上,一位红学家检索到唯一一次“红楼梦”一词时欣喜万分。
数字化文本为阅读和研究提供了极大便利。但这种简单的检索功能在今天看来,已是平淡无奇的基本功能了。
数字化和数据化的最大区别,就是前者仅可提供简单的字词检索,而后者则是结构化、关联性,可自动进行知识再生。如果说都可用数据库来指称,那么前者是非关系型数据库,后者是关系型数据库,或者,前者叫大数据,后者叫大知识(参《清华自然语言处理科学家孙茂松:深度学习碰壁之后,我们还能做什么?》一文)。
辅之以相应的工具,借助于中国历史上一切古典学的研究成果,在保障古籍文献内容完整性及内部逻辑性的基础上突破文献原有结构,周密地设定主题词表,专业地提取各种实体,如年代、地域、人物、社团、著述、事件等等,构建实体的相关属性及不同实体间的关系,通过这些实体及相互关系对文献进行深层组织和知识管理,这就是我们所构想的“中国古典知识库”(ChineseClassicsKnowledgeBase,简称CCKB)。
科技界在知识库构建方面已经做了大量工作,其工作思路和方法可作为我们的重要参考。比如Google很早就提出知识图谱的概念,用符号来描述物理世界中的概念及其相互之间的结构,构建用于知识获取的网络服务。
中国古典文史领域的知识库其实也已经开始出现,如哈佛大学主导的“中国历代人物传记资料库(CBDB)”“中国历史地理信息系统(CHGIS)”,耶鲁大学主导的“广厦千万间(TheTenThousandsRoomsProject)”项目。尤其是“中国历代人物传记资料库”,以近50万名中国古籍中的历史人物为中心,提取人物及人物之间的社会关系,影响甚巨。一些规模不大但颇具特色的专题数据平台如“唐宋文学编年系地信息平台”“明清学术地图”等也引发了社会的普遍关注。
但CCKB是关乎20多万种古籍构成的古典知识整体的宏大构想。这一构想的实现是一个过程,而难以某一时刻为标志。随着知识库建设的推进,人们从事学术研究的条件将随之改善,研究的起点将大大不同,所设定的工作目标亦将不同甚至迥异于往日。到那时,许多前人穷其一生所做的学术,可以或基本可以让位给计算机来做,那时的学者就可以去做计算机仍然不能做的事了。
这一宏大构想不是一个机构或少量人员在短时间能够完成,它需要专业力量和技术力量的通力合作,需要多个高校或科研机构、企业合作完成,需要国家将之真正上升到文化发展战略的高度,相关职能部门高度重视,给予规划和指导。
清华大学的计算机、统计学及中文信息处理技术等学科有得天独厚的优势,古典文献学学科也有相当的实力。
清华大学中国古典文献研究中心在著名学者傅璇琮先生带领下,承担和完成了多项大型古籍整理和研究工作,如《续修四库全书总目提要》《中华字库·宋元印本文献用字搜集与整理》等。在目前正承担的国家社科基金重大项目“基于大数据的中国古代文学经典文本分析与研究”中,文献中心特聘研究员张力伟编审的团队尝试基于文献知识库的汉代至唐代作家生平事迹研究。对全面搜集整理的相关文献进行数据抽取、清洗,利用分词、文本挖掘等技术,对同一人物同一事件所对应的相关文献进行聚类,构建一个包含各种关联数据的关系型数据库。与此同时,也分析、构建各类行为模型,把有关作家生平事迹的部分通过关系型数据库,转化成不同实体之间的关系陈述。清华大学中文系刘颖教授的“基于计算风格学的明清小说研究”团队,致力于构建明清小说语料库,经过切词、词性标注等深度加工,直接用于统计分析和机器学习,可以从词汇特征、语法特征、语义特征以及人物关系等多方面来判断小说的作者归属,从远读的角度描绘出每部著作的计量风格特征。
清华大学中国古典文献研究中心还与中华书局合作创办了大陆第一个《数字人文》期刊,建设了国内第一个数字人文门户网站,“DH数字人文”微信公众号的影响也越来越大。我们还着手进行数字人文学者的培养,开设了“数字人文工作坊”和“未来学者实验室”,越来越多的文科生开始学习编程,选择与数字人文有关的题目进行研究。条件成熟时还拟设立数字人文专业。
从项目、刊物到网站、教学,我们规划和开展了一系列有关“数字人文”的工作,期待“中国古典知识库”在国家职能部门和学术界的支持下早日提上议事日程。
(刘石系清华大学中文系教授,孙茂松系清华大学计算机科学与技术系教授)
来源:《人民政协报》2020-08-24 09版
转 载 请 联 系 授 权